专业 激情 持久 卓越
好文推荐
当前位置: 首页 > 开放资源 > 好文推荐

【TMM】End-to-End Audiovisual Speech Recognition System with Multitask Learning

发布日期:2022-04-05     返回

End-to-End Audiovisual Speech Recognition System with Multitask Learning

分享人:王亚伟
研究方向:视听融合
论文题目:End-to-End Audiovisual Speech Recognition System with Multitask Learning
论文作者:Fei Tao,Carlos Busso
作者单位:德克萨斯大学电气与计算机工程系
论文摘要:自动语音识别是当前语音系统中的关键组件。然而,环境的噪声会严重降低自动语音识别系统的性能。解决这个问题的一个有效方案是用描述唇部活动的视觉特征来增强传统的基于音频的自动语音识别系统。本文提出了一种全新的端到端的基于多任务学习的视听融合语音识别系统。该方法的一个关键创新点是应用了多任务学习,其中主要任务是视听融合语音识别,次要任务是视听融合语音端点检测。我们提出了一个能够在不同条件下泛化的鲁棒且准确的视听系统。通过检测带有端点的语音片段,视听融合语音识别的性能可以得到提高,因为使用的CTC损失函数可以利用视听融合语音端点检测中的对齐信息。此外,端到端系统从原始视听输入中学习两种语音任务的高级表征,从而具有直接从数据中挖掘有效信息的灵活性。所提出的架构考虑了模态内部和跨模态的时间动态特性,提供了一种有效且实用的融合方案。我们在包含不同通道和环境条件的大型视听语料库(超过60小时)上评估了提出的方法,并将结果与具有竞争力的单任务学习模型和多任务学习基线模型进行比较。尽管主要目标是提高自动语音识别的性能,但实验结果表明,所提出的方法可以在两种语音任务的所有条件下实现最佳性能。除了可以实现视听融合语音识别任务的最佳性能外,所提出的解决方案还可以提供有关语音端点的有效信息,从而解决了基于语音的应用系统中最重要的两个任务。
原文链接

点击此处